Limpieza de datos
Creando el DataFrame
a partir de la variable Ingresos Totales (IT)
ITS <- filter(ITS, Año %in% c("2020","2021","2022"))
ITS %>% group_by(Año,Mes,Aeropuerto,Infraestructura) %>% summarise(IT = sum(`Importe por Servicios`)) -> DF
DF$IT[is.na(DF$IT)] <- 0
Uniendo la variable
Ingresos Regulados (IR)
IRS %>% group_by(Año,Mes,Aeropuerto) %>% summarise(IR = sum(`Importe por Servicios`)) -> IRegulados
DF <- merge(DF, IRegulados, by = c("Año","Mes","Aeropuerto"), all=TRUE)
DF$IR[is.na(DF$IR)] <- 0
Uniendo la variable
Numero de Pasajeros Internacionales (NPI)
PI <- filter(TP, `Tipo de Pasajero` == "INTERNACIONAL")
PI <- filter(PI,Año %in% c(2020,2021,2022))
PI <- select(PI, -Periodo)
PI <- select(PI, -`Tipo de Pasajero`)
DF <- merge(DF,PI, by = c("Año","Mes","Aeropuerto","Infraestructura"), all = TRUE)
DF <- rename(DF, "NPI" = "Nro Pasajeros")
DF$NPI[is.na(DF$NPI)] <- 0
#Reemplazo de N/A's por 0
Uniendo la variable
Numero de Pasajeros Nacionales (NPN)
PN <- filter(TP, `Tipo de Pasajero` == "NACIONAL")
PN <- filter(PN,Año %in% c(2020,2021,2022))
PN <- select(PN, -Periodo)
PN <- select(PN, -`Tipo de Pasajero`)
DF <- merge(DF,PN, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "NPN" = "Nro Pasajeros")
DF$NPN[is.na(DF$NPN)] <- 0
#Reemplazo de N/A's por 0
Uniendo la variable
Ingreso Rubro T U U A NACIONAL (TUUAN)
TUUAN <- filter(ITS, `Rubro Ingreso` == "T U U A NACIONAL")
TUUAN <- filter(TUUAN,Año %in% c(2020,2021,2022))
TUUAN <- select(TUUAN, -'Tipo Ingreso')
TUUAN <- select(TUUAN, -'Rubro Ingreso')
TUUAN <- select(TUUAN, -'Periodo')
#Creación de variable de verificación para reemplazo de N/A's
DF <- merge(DF, TUUAN, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "TUUAN_VER" = "Importe por Servicios")
DF <- merge(DF, TUUAN, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "TUUAN" = "Importe por Servicios")
DF$TUUAN_VER[is.na(DF$TUUAN_VER)] <- 0
DF$TUUAN_VER[DF$TUUAN_VER != 0] <- "Si"
DF$TUUAN_VER[DF$TUUAN_VER == "0"] <- "No"
DF$TUUAN[is.na(DF$TUUAN)] <- 0
#Reemplazo de N/A's por 0
Uniendo la variable
Ingreso Rubro T U U A INTERNACIONAL (TUUAI)
TUUAI <- filter(ITS, `Rubro Ingreso` == "T U U A INTERNACIONAL")
TUUAI <- filter(TUUAI,Año %in% c(2020,2021,2022))
TUUAI <- select(TUUAI, -'Tipo Ingreso')
TUUAI <- select(TUUAI, -'Rubro Ingreso')
TUUAI <- select(TUUAI, -'Periodo')
DF <- merge(DF, TUUAI, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "TUUAI_VER" = "Importe por Servicios")#Creación de variable de verificación para reemplazo de N/A's
DF <- merge(DF, TUUAI, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "TUUAI" = "Importe por Servicios")
DF$TUUAI_VER[is.na(DF$TUUAI_VER)] <- 0
DF$TUUAI_VER[DF$TUUAI_VER != 0] <- "Si"
DF$TUUAI_VER[DF$TUUAI_VER == "0"] <- "No"
DF$TUUAI[is.na(DF$TUUAI)] <- 0
#Reemplazo de N/A's por 0
Uniendo la variable
Ingreso Rubro ATERRIZAJE Y DESPEGUE (IRAD)
IRAD <- filter(ITS, `Rubro Ingreso` == "ATERRIZAJE Y DESPEGUE")
IRAD <- filter(IRAD,Año %in% c(2020,2021,2022))
IRAD <- select(IRAD, -'Tipo Ingreso')
IRAD <- select(IRAD, -'Rubro Ingreso')
IRAD <- select(IRAD, -'Periodo')
DF <- merge(DF, IRAD, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "IRAD_VER" = "Importe por Servicios")
#Creación de variable de verificación para reemplazo de N/A's
DF <- merge(DF, IRAD, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "IRAD" = "Importe por Servicios")
DF$IRAD_VER[is.na(DF$IRAD_VER)] <- 0
DF$IRAD_VER[DF$IRAD_VER != 0] <- "Si"
DF$IRAD_VER[DF$IRAD_VER == "0"] <- "No"
DF$IRAD[is.na(DF$IRAD)] <- 0
#Reemplazo de N/A's por 0
Uniendo la variable
Ingreso Rubro ALQUILER AREAS DE MANTENIMIENTO (AADM)
AADM <- filter(ITS, `Rubro Ingreso` == "ALQUILER AREAS DE MANTENIMIENTO")
AADM <- filter(AADM,Año %in% c(2020,2021,2022))
AADM <- select(AADM, -'Tipo Ingreso')
AADM <- select(AADM, -'Rubro Ingreso')
AADM <- select(AADM, -'Periodo')
DF <- merge(DF, AADM, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "AADM_VER" = "Importe por Servicios")
#Creación de variable de verificación para reemplazo de N/A's
DF <- merge(DF, AADM, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "AADM" = "Importe por Servicios")
DF$AADM_VER[is.na(DF$AADM_VER)] <- 0
DF$AADM_VER[DF$AADM_VER != 0] <- "Si"
DF$AADM_VER[DF$AADM_VER == "0"] <- "No"
DF$AADM[is.na(DF$AADM)] <- 0
#Reemplazo de N/A's por 0
Uniendo la variable
Ingreso ALQUILER DE ESPACIOS PUBLICITSARIOS (ADEP)
ADEP <- filter(ITS, `Rubro Ingreso` == "ALQUILER DE ESPACIOS PUBLICITSARIOS")
ADEP <- filter(ADEP,Año %in% c(2020,2021,2022))
ADEP <- select(ADEP, -'Tipo Ingreso')
ADEP <- select(ADEP, -'Rubro Ingreso')
ADEP <- select(ADEP, -'Periodo')
DF <- merge(DF, ADEP, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "ADEP_VER" = "Importe por Servicios")
#Creación de variable de verificación para reemplazo de N/A's
DF <- merge(DF, ADEP, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "ADEP" = "Importe por Servicios")
DF$ADEP_VER[is.na(DF$ADEP_VER)] <- 0
DF$ADEP_VER[DF$ADEP_VER != 0] <- "Si"
DF$ADEP_VER[DF$ADEP_VER == "0"] <- "No"
DF$ADEP[is.na(DF$ADEP)] <- 0
#Reemplazo de N/A's por 0
Uniendo la variable
Ingreso ALQUILER LOCALES COMERCIALES (ALC)
ALC <- filter(ITS, `Rubro Ingreso` == "ALQUILER LOCALES COMERCIALES")
ALC <- filter(ALC,Año %in% c(2020,2021,2022))
ALC <- select(ALC, -'Tipo Ingreso')
ALC <- select(ALC, -'Rubro Ingreso')
ALC <- select(ALC, -'Periodo')
DF <- merge(DF, ALC, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "ALC_VER" = "Importe por Servicios")
#Creación de variable de verificación para reemplazo de N/A's
DF <- merge(DF, ALC, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "ALC" = "Importe por Servicios")
DF$ALC_VER[is.na(DF$ALC_VER)] <- 0
DF$ALC_VER[DF$ALC_VER != 0] <- "Si"
DF$ALC_VER[DF$ALC_VER == "0"] <- "No"
DF$ALC[is.na(DF$ALC)] <- 0
#Reemplazo de N/A's por 0
Uniendo la variable
Ingreso Rubro ALQUILER OFICINAS OPERACIONES AEROLÍNEAS (AOOA)
AOOA <- filter(ITS, `Rubro Ingreso` == "ALQUILER OFICINAS OPERACIONES AEROLÍNEAS")
AOOA <- filter(AOOA,Año %in% c(2020,2021,2022))
AOOA <- select(AOOA, -'Tipo Ingreso')
AOOA <- select(AOOA, -'Rubro Ingreso')
AOOA <- select(AOOA, -'Periodo')
DF <- merge(DF, AOOA, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "AOOA_VER" = "Importe por Servicios")
#Creación de variable de verificación para reemplazo de N/A's
DF <- merge(DF, AOOA, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "AOOA" = "Importe por Servicios")
DF$AOOA_VER[is.na(DF$AOOA_VER)] <- 0
DF$AOOA_VER[DF$AOOA_VER != 0] <- "Si"
DF$AOOA_VER[DF$AOOA_VER == "0"] <- "No"
DF$AOOA[is.na(DF$AOOA)] <- 0
Uniendo la variable
Ingreso Rubro ALQUILERES DE ALMACEN/HANGAR (ADAH)
ADAH <- filter(ITS, `Rubro Ingreso` == "ALQUILERES DE ALMACEN/HANGAR")
ADAH <- filter(ADAH,Año %in% c(2020,2021,2022))
ADAH <- select(ADAH, -'Tipo Ingreso')
ADAH <- select(ADAH, -'Rubro Ingreso')
ADAH <- select(ADAH, -'Periodo')
DF <- merge(DF, ADAH, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "ADAH_VER" = "Importe por Servicios")
#Creación de variable de verificación para reemplazo de N/A's
DF <- merge(DF, ADAH, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "ADAH" = "Importe por Servicios")
DF$ADAH_VER[is.na(DF$ADAH_VER)] <- 0
DF$ADAH_VER[DF$ADAH_VER != 0] <- "Si"
DF$ADAH_VER[DF$ADAH_VER == "0"] <- "No"
DF$ADAH[is.na(DF$ADAH)] <- 0
Uniendo la variable
Ingreso Rubro ESTACIONAMIENTO AERONAVES (IREA)
IREA <- filter(ITS, `Rubro Ingreso` == "ESTACIONAMIENTO AERONAVES")
IREA <- filter(IREA,Año %in% c(2020,2021,2022))
IREA <- select(IREA, -'Tipo Ingreso')
IREA <- select(IREA, -'Rubro Ingreso')
IREA <- select(IREA, -'Periodo')
DF <- merge(DF, IREA, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "IREA_VER" = "Importe por Servicios")
#Creación de variable de verificación para reemplazo de N/A's
DF <- merge(DF, IREA, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "IREA" = "Importe por Servicios")
DF$IREA_VER[is.na(DF$IREA_VER)] <- 0
DF$IREA_VER[DF$IREA_VER != 0] <- "Si"
DF$IREA_VER[DF$IREA_VER == "0"] <- "No"
DF$IREA[is.na(DF$IREA)] <- 0
Uniendo la variable
Ingreso Rubro INGRESOS FINANCIEROS (IRIF)
IRIF <- filter(ITS, `Rubro Ingreso` == "INGRESOS FINANCIEROS")
IRIF <- filter(IRIF,Año %in% c(2020,2021,2022))
IRIF <- select(IRIF, -'Tipo Ingreso')
IRIF <- select(IRIF, -'Rubro Ingreso')
IRIF <- select(IRIF, -'Periodo')
DF <- merge(DF, IRIF, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "IRIF_VER" = "Importe por Servicios")
#Creación de variable de verificación para reemplazo de N/A's
DF <- merge(DF, IRIF, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "IRIF" = "Importe por Servicios")
DF$IRIF_VER[is.na(DF$IRIF_VER)] <- 0
DF$IRIF_VER[DF$IRIF_VER != 0] <- "Si"
DF$IRIF_VER[DF$IRIF_VER == "0"] <- "No"
DF$IRIF[is.na(DF$IRIF)] <- 0
Uniendo la variable
Ingreso Rubro REEMBOLSOS (IRR)
IRR <- filter(ITS, `Rubro Ingreso` == "REEMBOLSOS")
IRR <- filter(IRR,Año %in% c(2020,2021,2022))
IRR <- select(IRR, -'Tipo Ingreso')
IRR <- select(IRR, -'Rubro Ingreso')
IRR <- select(IRR, -'Periodo')
IRR <- filter(IRR, `Importe por Servicios` != 0)
DF <- merge(DF, IRR, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "IRR_VER" = "Importe por Servicios")
#Creación de variable de verificación para reemplazo de N/A's
DF <- merge(DF, IRR, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "IRR" = "Importe por Servicios")
DF$IRR_VER[is.na(DF$IRR_VER)] <- 0
DF$IRR_VER[DF$IRR_VER != 0] <- "Si"
DF$IRR_VER[DF$IRR_VER == "0"] <- "No"
DF$IRR[is.na(DF$IRR)] <- 0
Agregando la
variable Numero de Pasajeros Totales (NP)
DF %>% mutate(NP = NPN + NPI) -> DF
#Numero de pasajeros totales
Eliminación de datos
y arreglos
# Si es que no tenemos el nombre del aeropuerto o su infraestructura (Siempre debe venir acompañada del nombre), la unidad muestral no podrá entrar al análisis pues por ejemplo si nos dicen cuanto gano un aeropuerto desconocido, esto no nos dirá nada.
DF$Mes = factor(DF$Mes, levels =c("Enero","Febrero","Marzo","Abril","Mayo","Junio","Julio","Agosto","Setiembre","Octubre","Noviembre","Diciembre"))
DF <- arrange(DF, Año, Mes)
DF$Aeropuerto[DF$Aeropuerto == 'No precisa'] <- NA
DF$Aeropuerto[DF$Aeropuerto == '-'] <- NA
DF$Infraestructura[DF$Infraestructura == '-'] <- NA
DF <- filter(DF, Infraestructura != is.na("Infraestructura") & Aeropuerto != is.na("Aeropuerto"))
DF %>% mutate("Entidad_Infraestructura" =
ifelse(Infraestructura=="ADP", "Aeropuertos del Perú S.A.",
ifelse(Infraestructura=="AAP", "Aeropuertos Andinos del Perú S.A.",
ifelse(Infraestructura=="COR", "CORPAC S.A.",
ifelse(Infraestructura=="LAP", "Lima Airport Partners S.R.L.",Infraestructura))))) -> DF
sum(complete.cases(DF))
[1] 378
DF$Mes = factor(DF$Mes, levels =c("Enero","Febrero","Marzo","Abril","Mayo","Junio","Julio","Agosto","Setiembre","Octubre","Noviembre","Diciembre"))
DF <- arrange(DF, Año, Mes)
Exportando la base
de datos
write_csv(DF,"BaseLimpiav2.csv")
Importando la base
datos limpia
rm(list = ls())
library(readr)
library(plyr)
library(dplyr)
Attaching package: ‘dplyr’
The following objects are masked from ‘package:plyr’:
arrange, count, desc, failwith, id, mutate, rename, summarise, summarize
The following objects are masked from ‘package:stats’:
filter, lag
The following objects are masked from ‘package:base’:
intersect, setdiff, setequal, union
library(plotrix)
library(ggplot2)
library(stringi)
library(plotly)
Registered S3 method overwritten by 'data.table':
method from
print.data.table
Registered S3 method overwritten by 'htmlwidgets':
method from
print.htmlwidget tools:rstudio
Attaching package: ‘plotly’
The following object is masked from ‘package:ggplot2’:
last_plot
The following objects are masked from ‘package:plyr’:
arrange, mutate, rename, summarise
The following object is masked from ‘package:stats’:
filter
The following object is masked from ‘package:graphics’:
layout
library(MASS)
Attaching package: ‘MASS’
The following object is masked from ‘package:plotly’:
select
The following object is masked from ‘package:dplyr’:
select
DF <- read_csv("BaseLimpiav2.csv")
Rows: 1148 Columns: 34── Column specification ───────────────────────────────────────────────────────────────────────────────────
Delimiter: ","
chr (16): Mes, Aeropuerto, Infraestructura, TUUAN_VER, TUUAI_VER, IRAD_VER, AADM_VER, ADEP_VER, ALC_VER...
dbl (18): Año, IT, IR, NPI, NPN, TUUAN, TUUAI, IRAD, AADM, ADEP, ALC, AOOA, ADAH, AEHE, IREA, IRIF, IRR...
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
Variables
Año: Variable categórica que indica el año de la
recolección de información.
Mes: Variable categórica que indica el mes de la
recolección de información.
Aeropuerto: Variable cualitativa que indica el
aeropuerto del cual se recolecta la información
Infraestructura: Variable cualitativa que indica en
acrónimo a que entidad pertenece la infraestructura del aeropuerto del
cual se recolecta la información.
Entidad_Infraestructura: Variable cualitativa que
indica a que entidad pertenece la infraestructura del aeropuerto del
cual se recolecta la información.
IT: Variable cuantitativa que representa los
ingresos totales en dolares que ha registrado el aeropuerto
IR: Variable cuantitativa que representa los
ingresos regulados en dolares que ha registrado el aeropuerto
TUUAN: Variable cuantitativa que representa el
ingreso en dolares que ha generado la TARIFA UNIFICADA POR USO DE
AEROPUERTO de tipo nacional.
TUUAN: Variable cuantitativa que representa el
ingreso en dolares que ha generado la TARIFA UNIFICADA POR USO DE
AEROPUERTO de tipo internacional.
NPI: Variable cuantitativa que representa el numero
de pasajeros internacionales que ha registrado el aeropuerto
NPN: Variable cuantitativa que representa el numero
de pasajeros nacionales que ha registrado el aeropuerto
IRAD_VER: Variable categórica que representa si el
aeropuerto obtiene ingresos por aterrizaje y despegue.
IRAD: Variable cuantitativa que representa el
ingreso en dolares del aeropuerto por aterrizaje y despegue.
AADM_VER: Variable categórica que representa si el
aeropuerto obtiene ingresos por el alquiler de áreas de
mantenimiento.
AADM: Variable cuantitativa que representa el
ingreso en dolares por el alquiler de áreas de mantenimiento.
ADEP_VER: Variable categórica que representa si el
aeropuerto obtiene ingresos por el alquiler de espacios de
publicidad.
ADEP: Variable cuantitativa que representa el
ingreso en dolares por el alquiler de espacios de publicidad.
ALC_VER: Variable categórica que representa si el
aeropuerto obtiene ingresos por el alquiler de locales comerciales.
ALC: Variable cuantitativa que representa el ingreso
en dolares por el alquiler de locales comerciales.
AOOA_VER: Variable categórica que representa si el
aeropuerto obtiene ingresos por el alquiler de oficinas de operaciones
de aerolíneas.
AOOA: Variable cuantitativa que representa el
ingreso en dolares por el alquiler de oficinas de operaciones de
aerolíneas.
ADAH_VER: Variable categórica que representa si el
aeropuerto obtiene ingresos por el alquiler de almacenes/hangares.
ADAH: Variable cuantitativa que representa el
ingreso en dolares por el alquiler de almacenes/hangares.
AEHE_VER: Variable categórica que representa si el
aeropuerto obtiene ingresos por la atención en horas extras.
AEHE: Variable cuantitativa que representa el
ingreso en dolares por la atención en horas extras.
IREA_VER: Variable categórica que representa si el
aeropuerto obtiene ingresos por el estacionamiento de aeronaves.
IREA: Variable cuantitativa que representa el
ingreso en dolares por el estacionamiento de aeronaves.
IRIF_VER: Variable categórica que representa si el
aeropuerto obtiene ingresos por reembolso en ingresos financieros.
IRIF: Variable cuantitativa que representa el
ingreso en dolares por reembolso en ingresos financieros.
IRR_VER: Variable categórica que representa si el
aeropuerto obtiene ingresos por reembolsos.
IRR: Variable cuantitativa que representa el ingreso
en dolares por reembolsos.
NP: Variable cuantitativa que representa el numero
de pasajeros totales que ha registrado el aeropuerto.
Descriptores
Numéricos
cv <- function(x){
return(sd(x, na.rm=T)/mean(x, na.rm=T))
}
tabla <- data.frame(Variables = c('IT', 'NPN', 'NPI', 'TUUAN','TUUAI'),
Media = c(mean(DF$IT, na.rm=T),
mean(DF$NPN, na.rm = T),
mean(DF$NPI, na.rm= T),
mean(DF$TUUAN, na.rm= T),
mean(DF$TUUAI, na.rm= T)),
Mediana = c(median(DF$IT, na.rm=T),
median(DF$NPN, na.rm = T),
median(DF$NPI, na.rm= T),
median(DF$TUUAN, na.rm = T),
median(DF$TUUAI, na.rm= T)),
Desviacion = c(sd(DF$IT, na.rm=T),
sd(DF$NPN, na.rm = T),
sd(DF$NPI, na.rm= T),
sd(DF$TUUAN, na.rm = T),
sd(DF$TUUAI, na.rm= T)),
Varianza = c(var(DF$IT, na.rm = T),
var(DF$NPN, na.rm = T),
var(DF$NPI, na.rm = T),
var(DF$TUUAN, na.rm = T),
var(DF$TUUAI, na.rm = T)),
RangoIntercuartil = c(IQR(DF$IT, na.rm = T),
IQR(DF$NPN, na.rm = T),
IQR(DF$NPI, na.rm = T),
IQR(DF$TUUAN, na.rm = T),
IQR(DF$TUUAI, na.rm = T)),
CoeficienteVariacion = c(cv(DF$IT),
cv(DF$NPN),
cv(DF$NPI),
cv(DF$NPN),
cv(DF$NPI)))
tabla
De la tabla podemos conseguir la siguiente información:
La escala con la que se trabaja es bastante grande, de ahí el
hecho que la varianza y desviación sean tan grande.
Tanto la varianza como la desviación nos indican que los datos de
los Ingresos Totales, el Numero de Pasajeros Nacionales y el Numero de
Pasajeros Internacionales están muy dispersos.
Se aprecia un fenómeno que la mediana y el rango intercuartil de
la variable Pasajeros internacionales es 0. Esto quiere decir que hay
muchos aeropuertos los cuales no suelen recibir pasajeros
internacionales.
Descriptores
Gráficos
Numero de Pasajeros
vs Ingresos Totales
plot(DF$NP/1000, DF$IT/1000000, xlab = "Numero de pasajeros (miles)", ylab = "Ingresos totales (millones de US$)", col="darkgreen", pch="•", xlim = c(0,2000))

Comenzamos comparando el numero de pasajeros en miles totales, suma
de pasajeros internacionales y nacionales, con los ingresos totales de
cada aeropuerto en determinado mes y año en millones de dolares. A
simple vista se puede ver un cierto tipo de relación lineal, sin embargo
tenemos que comprobarlo. Usaremos el coeficiente de correlación ya que
este no toma en cuenta la escala de las unidades, perfecto para nuestro
estudio.
cor(DF$IT, DF$NP, use="complete.obs")
[1] 0.9834118
Con la información suministrada del coeficiente de correlación se
deduce que la relación lineal entre el numero de pasajeros y los
ingresos totales es buena, casi perfecta y ascendente. Es decir los
ingresos totales aumentaran en cuanto aumente el numero de
pasajeros.
Ahora crearemos un modelo de regresión lineal.
modelo = lm(DF$IT ~ DF$NP, data=DF)
modelo
Call:
lm(formula = DF$IT ~ DF$NP, data = DF)
Coefficients:
(Intercept) DF$NP
-151042.68 16.46
d <- data.frame("X"=DF$NP/1000, "Y"=DF$IT/1000000)
modelo = lm(d$Y ~ d$X, data=d)
modelo
Call:
lm(formula = d$Y ~ d$X, data = d)
Coefficients:
(Intercept) d$X
-0.15104 0.01646
Hemos creado dos modelos que en realidad son el mismo pero a
diferentes escalas. El primero nos sirve para usar directamente el
numero de pasajeros y los ingresos totales en dolares. El segundo para
usar el numero de pasajeros en miles y conseguir los ingresos totales en
millones de dolares. Ambos modelos nos permiten aproximar, predecir los
ingresos totales de un aeropuerto en determinado mes y año usando la
cantidad de pasajeros totales que llevo en el mismo lapso de tiempo.
plot(DF$NP/1000, DF$IT/1000000, xlab = "Numero de pasajeros (miles)", ylab = "Ingresos totales (millones de US$)", col="darkgreen", pch="•", xlim = c(0,2000))
abline(a= -0.14890, b=0.01646, col="green")

Numero de Pasajeros
Nacionales e Internacionales vs Ingresos Totales
par(mfrow=c(1,2))
plot(DF$NPN/1000, DF$IT/1000000, xlab = "Numero de pasajeros nacionales (miles)", ylab = "Ingresos totales (millones de US$)", col="red", pch="•")
plot(DF$NPI/1000, DF$IT/1000000, xlab = "Numero de pasajeros internacionales (miles)", ylab = "Ingresos totales (millones de US$)", col="blue", pch="•")

Ahora vamos a analizar la relación de los tipos de pasajeros con los
ingresos totales. De nuevo usaremos el coeficiente de correlación tanto
para los pasajeros nacionales como internacionales.
cor(DF$IT, DF$NPN, use="complete.obs")
[1] 0.9738777
cor(DF$IT, DF$NPI, use="complete.obs")
[1] 0.9783331
De los coeficientes dados se encuentra que:
- Ambos demuestran que tanto los pasajeros nacionales como
internacionales poseen una buena y ascendente relación lineal con los
ingresos totales.
- Ambos son menores al cor de los pasajeros totales
con los ingresos totales. Indica que si se usa solo a los pasajeros
nacionales o solo a los internacionales para aproximar los ingresos
totales, se tendrá una precisión menor a que si se usará la suma de
ambos.
- El cor de los pasajeros internacionales es
ligeramente superior al de los pasajeros nacionales, mostrando que su
relación lineal con los ingresos totales es ligeramente más acorde que
la relación lineal de los pasajeros nacionales.
Ahora construyamos los modelos de regresión lineal para cada uno.
modelo = lm(DF$IT ~ DF$NPN, data=DF)
modelo
Call:
lm(formula = DF$IT ~ DF$NPN, data = DF)
Coefficients:
(Intercept) DF$NPN
-363490.18 24.52
d <- data.frame("X"=DF$NPN/1000, "Y"=DF$IT/1000000)
modelo = lm(d$Y ~ d$X, data=d)
modelo
Call:
lm(formula = d$Y ~ d$X, data = d)
Coefficients:
(Intercept) d$X
-0.36349 0.02452
modelo = lm(DF$IT ~ DF$NPI, data=DF)
modelo
Call:
lm(formula = DF$IT ~ DF$NPI, data = DF)
Coefficients:
(Intercept) DF$NPI
319864.95 47.72
d <- data.frame("X"=DF$NPI/1000, "Y"=DF$IT/1000000)
modelo = lm(d$Y ~ d$X, data=d)
modelo
Call:
lm(formula = d$Y ~ d$X, data = d)
Coefficients:
(Intercept) d$X
0.31986 0.04772
rm(d)
Vemos que los modelos difieren en una cantidad considerable en cuanto
a su pendiente, sin embargo, su intercepto es bastante similar, vamos a
graficar estos modelos.
par(mfrow=c(1,2))
plot(DF$NPN/1000, DF$IT/1000000, xlab = "Numero de pasajeros nacionales (miles)", ylab = "Ingresos totales (millones de US$)", col="red", pch="•")
abline(a= -0.36033, b=0.02451, col="#f72585")
plot(DF$NPI/1000, DF$IT/1000000, xlab = "Numero de pasajeros internacionales (miles)", ylab = "Ingresos totales (millones de US$)", col="blue", pch="•")
abline(a= 0.31996, b=0.04772, col="#0077b6")

Analizando la
distribución de Ingresos Totales
plot_ly(x = ~DF$IT/1000000,
type="histogram",
color = ~DF$Infraestructura,
nbinsx = 100
)%>%
layout(yaxis = list( title = "Frecuencia" ),
xaxis = list( title = "Ingresos totales (Millones de US$)",
nticks = 20))
Warning: Ignoring 395 observationsWarning: Ignoring 395 observations
Gracias al histograma se dice que los datos de los ingresos totales
son totalmente asimétricos y se encuentran acumulados en un intervalo de
0 - 0.5 millones de dolares. Es decir la mayoría de aeropuertos
determinados en cierto mes y cierto año posee unos ingresos totales de
entre 0 y 0.5 millones de dolares. Esto puede ocurrir debido a datos
atípicos, construyamos un Boxplot para que nos ayude.
plot_ly(DF, x=~DF$IT/1000000,
type = "box")%>%
layout(
xaxis = list( title = "Ingresos totales (Millones de US$)"))
Warning: Ignoring 395 observationsWarning: Ignoring 395 observations
Usando un Boxplot simple se comprueba como los datos de los ingresos
totales están demasidos dispersos gracias a cierta cantidad de datos
atipicos. Ahora es necesario averiguar de donde provienen estos datos
atípicos y que nos quieren decir. Para ello crearemos diferentes
Boxplots basados en meses, infraestructuras y aeropuertos.
plot_ly(DF, x = ~IT/1000000,
y = ~Mes,
color= ~Mes,
type="box") %>%
layout(yaxis = list( title = "Mes"),
xaxis = list( title = "Ingresos totales (Millones de US$)"))
Warning: Ignoring 395 observationsWarning: n too large, allowed maximum for palette Set2 is 8
Returning the palette you asked for with that many colors
Warning: n too large, allowed maximum for palette Set2 is 8
Returning the palette you asked for with that many colors
Warning: Ignoring 395 observationsWarning: n too large, allowed maximum for palette Set2 is 8
Returning the palette you asked for with that many colors
Warning: n too large, allowed maximum for palette Set2 is 8
Returning the palette you asked for with that many colors
Con este gráfico podemos descartar que los datos atípicos provengan
de un o varios meses en específico.
plot_ly(DF, x = ~IT/1000000,
y = ~Infraestructura,
color= ~Entidad_Infraestructura,
type="box") %>%
layout(yaxis = list( title = "Infraestructura"),
xaxis = list( title = "Ingresos totales (Millones de US$)"))
Warning: Ignoring 395 observationsWarning: Ignoring 395 observations
En este gráfico se observa como Lima Airport Partners S.R.L rebasa
por mucho a las otras infraestructuras en cuanto a ingresos totales se
refiere. Aquí podemos ya saber que esos datos atípicos de ingresos están
generados en su gran mayoría por la infraestructura Lima Airport
Partners S.R.L. Además es importante mencionar que la infraestructura
COR no aparece en la gráfica pues no ha declarado ningún ingreso
total.
plot_ly(DF, x = ~IT/1000000,
y = ~Aeropuerto,
color= ~Aeropuerto,
type="box"
) %>%
layout(yaxis = list( title = "Aeropuertos"),
xaxis = list( title = "Ingresos totales (Millones de US$)"))
Warning: Ignoring 395 observationsWarning: n too large, allowed maximum for palette Set2 is 8
Returning the palette you asked for with that many colors
Warning: n too large, allowed maximum for palette Set2 is 8
Returning the palette you asked for with that many colors
Warning: Ignoring 395 observationsWarning: n too large, allowed maximum for palette Set2 is 8
Returning the palette you asked for with that many colors
Warning: n too large, allowed maximum for palette Set2 is 8
Returning the palette you asked for with that many colors
Gracias a los 3 gráficos podemos concluir que:
- El aeropuerto de Lima cuya entidad prestadora es la LAP, es la
responsable de los datos atípicos y además es el que más ingresos
totales genera.
- La infraestructura LAP trabaja en Lima y se refiere al Aeropuerto
Internacional Jorge Chávez. Esto nos quiere decir que en el Perú, el
aeropuerto que genera más ingresos es el Jorge Chávez.
Numero de Pasajeros
vs Aeropuertos
plot_ly(DF,y = ~NP/1000,
x = ~as.factor(Aeropuerto),
type="bar",
marker = list(color=c("lightblue"))
)%>%
layout(xaxis = list( title = "Aeropuertos"),
yaxis = list( title = "Numero de pasajeros (miles)"))
Con esta gráfico se corrobora que el Aeropuerto de Lima (Aeropuerto
Internacional Jorge Chávez) genera la mayor cantidad de ingresos y
además recibe a la mayor cantidad de pasajeros respecto al resto del
Perú. Otros aeropuertos notables son Cusco, Arequipa e Iquitos donde
Cusco es el que más pasajeros recibe fuera de Lima. Se procede a dibujar
el numero de pasajeros, los ingresos totales y los aeropuertos.
plot_ly(DF,x = ~NP/1000,
y = ~IT/1000000,
type="scatter",
color = ~as.factor(Aeropuerto)
)
No scatter mode specifed:
Setting the mode to markers
Read more about this attribute -> https://plotly.com/r/reference/#scatter-mode
Warning: Ignoring 395 observationsWarning: n too large, allowed maximum for palette Set2 is 8
Returning the palette you asked for with that many colors
Warning: n too large, allowed maximum for palette Set2 is 8
Returning the palette you asked for with that many colors
No scatter mode specifed:
Setting the mode to markers
Read more about this attribute -> https://plotly.com/r/reference/#scatter-mode
Warning: Ignoring 395 observationsWarning: n too large, allowed maximum for palette Set2 is 8
Returning the palette you asked for with that many colors
Warning: n too large, allowed maximum for palette Set2 is 8
Returning the palette you asked for with that many colors
El gráfico nos deja en claro la estrecha relación de la cantidad de
pasajeros con la de ingresos que posee el aeropuerto de Lima y como este
sobresale por mucho del resto de aeropuertos. Se concluye que los datos
atípicos provenientes de ingresos totales eran y nos contaban sobre las
peculiaridades del caso Lima.
Ingresos T U U A
Total vs Ingresos Totales
Se eligió la comparación de las T U U A, porque esta es la TARIFA
UNIFICADA POR USO DE AEROPUERTO, es decir es una tarifa que como
consumidores debemos de pagar. El objetivo aquí es analizar cuanto de
los ingresos totales provienen directamente de los bolsillos de los
pasajeros.
plot((DF$TUUAN/1000000 + DF$TUUAI/1000000), DF$IT/1000000, xlab = "Ingresos por TUUA (millones de US$)", ylab = "Ingresos totales (millones de US$)", col="#926c15", pch="•")

Comenzamos comparando el numero de pasajeros en miles totales, suma
de pasajeros internacionales y nacionales, con los ingresos totales de
cada aeropuerto en determinado mes y año en millones de dolares. A
simple vista se puede ver un cierto tipo de relación lineal, sin embargo
tenemos que comprobarlo. Usaremos el coeficiente de correlación ya que
este no toma en cuenta la escala de las unidades, perfecto para nuestro
estudio.
cor(DF$IT, DF$TUUAI + DF$TUUAN, use="complete.obs")
[1] 0.9870129
Tenemos un coeficiente de correlación que esta muy próximo a 1, es
decir esta relación es casi perfectamente lineal y con tendencia
ascendente.
Ahora crearemos un modelo de regresión lineal.
TUUA <- DF$TUUAI+DF$TUUAN
modelo = lm(DF$IT ~ TUUA, data=DF)
modelo
Call:
lm(formula = DF$IT ~ TUUA, data = DF)
Coefficients:
(Intercept) TUUA
155740.38 2.19
d <- data.frame("X"= (DF$TUUAI + DF$TUUAN)/100000, "Y"=DF$IT/1000000)
modelo = lm(d$Y ~ d$X, data=d)
modelo
Call:
lm(formula = d$Y ~ d$X, data = d)
Coefficients:
(Intercept) d$X
0.1557 0.2190
rm(d)
Del modelo creado se obtiene el intercepto, es decir cuando la TUUA
valdrá cero y la pendiente, en este caso es relativamente baja pero
ascendente.
plot(TUUA/100000, DF$IT/1000000, xlab = "TUUA total (millones de US$)", ylab = "Ingresos totales (millones de US$)", col="#926c15", pch="•")
abline(a= 0.1557, b=0.2190, col="#c9a227")

Ingresos TUUA
Nacional y TUUA Internacional vs Ingresos Totales
par(mfrow=c(1,2))
plot(DF$TUUAN/1000000, DF$IT/1000000, xlab = "Ingresos TUUA nacional (millones de US$)", ylab = "Ingresos totales (millones de US$)", col="#f8961e", pch="•")
plot(DF$TUUAI/1000000, DF$IT/1000000, xlab = "Ingresos TUUA internacional (millones de US$)", ylab = "Ingresos totales (millones de US$)", col="#90be6d", pch="•")

Probemos de nuevo a usar el coeficiente de correlación para ambas
variables
cor(DF$IT, DF$TUUAN, use="complete.obs")
[1] 0.985771
cor(DF$IT, DF$TUUAI, use="complete.obs")
[1] 0.9760972
De los coeficientes dados se encuentra que:
- Los dos coeficientes muestran una casi perfecta linealidad
ascendente.
- Ninguno de los dos cor por separado pudo superar al
anterior visto producto de la suma de las TUUA.
- El cor nacional es ligeramente superior al
cor internacional.
Ahora construyamos los modelos de regresión lineal para cada uno.
modelo = lm(DF$IT ~ DF$TUUAN, data=DF)
modelo
Call:
lm(formula = DF$IT ~ DF$TUUAN, data = DF)
Coefficients:
(Intercept) DF$TUUAN
-59899.076 5.213
d <- data.frame("X"=DF$TUUAN/1000000, "Y"=DF$IT/1000000)
modelo = lm(d$Y ~ d$X, data=d)
modelo
Call:
lm(formula = d$Y ~ d$X, data = d)
Coefficients:
(Intercept) d$X
-0.0599 5.2126
modelo = lm(DF$IT ~ DF$TUUAI, data=DF)
modelo
Call:
lm(formula = DF$IT ~ DF$TUUAI, data = DF)
Coefficients:
(Intercept) DF$TUUAI
3.295e+05 3.688e+00
d <- data.frame("X"=DF$TUUAI/1000000, "Y"=DF$IT/1000000)
modelo = lm(d$Y ~ d$X, data=d)
modelo
Call:
lm(formula = d$Y ~ d$X, data = d)
Coefficients:
(Intercept) d$X
0.3295 3.6882
rm(d)
Los modelos poseen bastantes diferencias entre sí como sus
interceptos que a simple no tienen nada en común al igual que sus
pendientes. Veamoslo en una grafica.
par(mfrow=c(1,2))
plot(DF$TUUAN/1000000, DF$IT/1000000, xlab = "Ingresos TUUA nacional (millones de US$)", ylab = "Ingresos totales (millones de US$)", col="#f8961e", pch="•")
abline(a= -0.0599, b=5.2126, col="#f3722c")
plot(DF$TUUAI/1000000, DF$IT/1000000, xlab = "Ingresos TUUA internacional (millones de US$)", ylab = "Ingresos totales (millones de US$)", col="#90be6d", pch="•")
abline(a= 0.3295, b=3.6882, col="#43aa8b")

Detallamos entonces que los ingresos totales guardan una alta
relación con los ingresos generados por las TUUA y dependen en gran
medida de estas, ergo la cantidad de pasajeros.
Pandemia vs
PostPandemia
DF2020 <- filter(DF, DF$Año=="2020")
DF2021 <- filter(DF, DF$Año=="2021")
DF2022 <- filter(DF, DF$Año=="2022")
DF2020 %>% group_by(Mes,Año) %>% summarise(IT = sum(IT, na.rm=TRUE), NP = sum(NP, na.rm = TRUE)) -> DF2020
`summarise()` has grouped output by 'Mes'. You can override using the `.groups` argument.
DF2021 %>% group_by(Mes,Año) %>% summarise(IT = sum(IT, na.rm=TRUE), NP = sum(NP, na.rm = TRUE)) -> DF2021
`summarise()` has grouped output by 'Mes'. You can override using the `.groups` argument.
DF2022 %>% group_by(Mes,Año) %>% summarise(IT = sum(IT, na.rm=TRUE), NP = sum(NP, na.rm = TRUE)) -> DF2022
`summarise()` has grouped output by 'Mes'. You can override using the `.groups` argument.
plot_ly(y = ~DF2020$IT/1000000,
x = ~DF2020$Mes,
type="bar",
name="2020",
marker = list(color = '#57cc99')
)%>%
add_trace(y = ~DF2021$IT/1000000,
x = ~DF2021$Mes,
type="bar",
name="2021",
marker = list(color = '#38a3a5')
)%>%
add_trace(y = ~DF2022$IT/1000000,
x = ~DF2022$Mes,
type="bar",
name="2022",
marker = list(color = '#22577a')
)%>%
layout(xaxis = list( title = "Meses"),
yaxis = list( title = "Ingresos totales (Millones de US$)",
nticks = 10,
range = list(0,45)),
barmode="group")
Del gráfico de barras podemos observar:
La distribución de los ingresos totales en base a los meses del
año.
Existe una asimetria notable entre los datos en el año 2020. Esta
asimetria se explica por el surgimiento del Covid-19. Los ingresos
bajaron bastante en proporción a la media.
Un patrón de crecimiento sobre los ingresos totales dependiendo
de los meses. En algunos meses los ingresos totales son esperado a ser
mayores que en otros meses, uno de los factores que pueden influir en
esto son las vacaciones pues están estrechamente relacionas con el
número de pasajeros a abordarr en un aeropuerto.
plot_ly() %>%
add_trace(y = ~DF2020$IT/1000000,
x = ~DF2020$Mes,
type="scatter",
mode="lines+markers",
name="2020",
marker = list(color = '#57cc99'),
line = list(color = '#57cc99'),
fill = "tonexty",
fillcolor = 'rgba(197,237,211,0.3)'
)%>%
add_trace(DF2021, y = ~DF2021$IT/1000000,
x = ~DF2021$Mes,
type="scatter",
mode="lines+markers",
name="2021",
marker = list(color = '#38a3a5'),
line = list(color = '#38a3a5'),
fill = "tonexty",
fillcolor = 'rgba(106,166,169,0.3)'
)%>%
add_trace(y = ~DF2022$IT/1000000,
x = ~DF2022$Mes,
type="scatter",
mode="lines+markers",
name="2022",
marker = list(color = '#22577a'),
line = list(color = '#22577a'),
fill = "tonexty",
fillcolor = 'rgba(68,102,122,0.3)'
)%>%
layout(xaxis = list( title = "Meses"),
title = "Evolutivo Ingresos",
yaxis = list( title = "Ingresos totales (Millones de US$)",
range = list(0,45))
)
NA
plot_ly() %>%
add_trace(y = ~DF2020$NP/1000,
x = ~DF2020$Mes,
type="scatter",
mode="lines+markers",
name="2020",
marker = list(color = '#E09F3E'),
line = list(color = '#E09F3E'),
fill = "tonexty",
fillcolor = 'rgba(225,183,123,0.3)'
)%>%
add_trace(DF2021, y = ~DF2021$NP/1000,
x = ~DF2021$Mes,
type="scatter",
mode="lines+markers",
name="2021",
marker = list(color = '#9E2A2B'),
line = list(color = '#9E2A2B'),
fill = "tonexty",
fillcolor = 'rgba(158,72,74,0.3)'
)%>%
add_trace(y = ~DF2022$NP/1000,
x = ~DF2022$Mes,
type="scatter",
mode="lines+markers",
name="2022",
marker = list(color = '#540B0E'),
line = list(color = '#540B0E'),
fill = "tonexty",
fillcolor = 'rgba(87,45,47,0.3)'
)%>%
layout(xaxis = list( title = "Meses"),
title = "Evolutivo Pasajeros",
yaxis = list( title = "Numero de Pasajeros (Miles)"))
De los gráficos evolutivos podemos apreciar:
Como es el comportamiento de los ingresos totales frente a los
meses y a los años marcados por la pandemia.
En el mes de Febrero del año 2020 comienza una caída drástica en
los ingresos hasta Abril del mismo año donde comienza a estabilizarse.
Este periodo coincide con la aparición del Covid-19 en Perú y el
establecimiento de las medidas de confinamiento. El confinamiento indica
que el número de pasajeros se reduce en gran proporción. Esta causa
también se puede observar en el evolutivo de pasajeros y el como su
número de cae hasta 0 o casi 0. Los aeropuerto tuvieron consecuencias
que tardaron mucho en disiparse Muestra de ello es como se tardó 2 años
y 5 meses para volver a un punto similar al de Febrero 2020 en ingresos
totales.
```r
round(100 - ((filter(DF2020, Mes == "Abril")$IT/1000000 )/( filter(DF2020, Mes == "Febrero")$IT/1000000) * 100) ,2)
```
```
[1] 86.68
```
```r
round( - filter(DF2020, Mes == "Abril")$IT/1000000 + filter(DF2020,Mes == "Febrero")$IT/1000000, 2)
```
```
[1] 31.67
```
La pérdida del mes de Abril del 2020 respecto al mes de Febrero
del 2020 fue del 86.68% suponiendo una diferencia de 31.76 millones de
dolares.
A partir del mes de Abril se estabilizan los ingresos del año
2020. Estos son bajos pero se observa una tendencia ascendente.
Tendencia que continua en los años 2021 y 2022 a medida que el
confinamiento se levanta, la pandemia se controla y el numero de
pasajeros aumenta.
Conclusión
A razón de resumen, en nuestro análisis sobre la relación entre el
número de pasajeros y los ingresos totales de los aeropuertos graficamos
la distribución de los ingresos totales, las diferentes relaciones entre
variables tales como la última vista (Ingresos TUUA vs Ingresos
Totales), (cantidad de pasajeros y aeropuertos). Asimismo observamos y
describimos el comportamiento evolutivo de los ingresos totales respecto
a los años vividos en pandemia y post-pandemia. Finalemnte, con la
información recolectada y el estudio realizado se encontró que los
ingresos totales generados por los aeropuertos en el Perú dependente
altamente en los consumidores o pasajeros, siendo la TUUA el ejemplo más
claro de ello.
---
title: "Estadisticas sobre los aeropuertos"
author: "Grupo 7, Sección 9"
date: "`r format(Sys.time(), '%d %B, %Y')`"
editor: visual
format: html
output:
  html_notebook:
    toc: yes
    toc_float:
      collapsed: no
      smooth_scroll: no
    number_sections: yes

  html_document:
    toc: yes
    df_print: paged
---

# **Alumnos del grupo:**

| Alumno                          | **Código**    | **Correo**                     | **Porcentaje de Trabajo** |
|-------------------|------------------|-------------------|------------------|
| ***Samir Stefano Suarez Rios*** | **202210611** | **samir.suarez\@utec.edu.pe**  | **x%**                    |
| **Milton Esteban Robles Reyes** | **202210416** | **milton.robles\@utec.edu.pe** | **x%**                    |
| **Caballito Hurtado**           | **201610002** | **María.salinas\@utec.edu.pe** | **x%**                    |
| **Chriss Martin de Coldplay**   | **201610002** | **María.salinas\@utec.edu.pe** | **x%**                    |

# **Tema**

Análisis mensual de la relación entre número de pasajeros e ingresos totales por aeropuerto (2020-2022)

# **Objetivo**

Evaluar la influencia del número de pasajeros en los ingresos totales (\$) por mes y año en cada aeropuerto en el Perú.

## Objetivo Secundarios

-   Determinar el aeropuerto con mayor afluencia de pasajeros y el de mayor ingresos del Perú.

-   Comparar los ingresos totales (\$) de los rubros (T U U A Nacional, T U U A Internacional ) en los aeropuertos del Perú.

-   Comparar los ingresos totales (\$) durante la pandemia y post pandemia en el Perú.

## Tabla de variables

# Librerías

```{r echo=FALSE}
library(plyr)
library(dplyr)
library(readr)
rm(list=ls())
```

# Tablas

```{r echo=FALSE}
ITS <- read_csv("RecaudacionIngresosTotales.csv")
IRS<- read_csv("RecaudacionIngresosRegulados.csv")
TP <- read_csv("TraficoPasajeros.csv")
```

# Limpieza de datos

## Creando el DataFrame a partir de la variable Ingresos Totales (IT)

```{r eval=TRUE}
ITS <- filter(ITS, Año %in% c("2020","2021","2022"))
ITS %>% group_by(Año,Mes,Aeropuerto,Infraestructura) %>% summarise(IT = sum(`Importe por Servicios`)) -> DF

```

```{r eval=FALSE}
DF$IT[is.na(DF$IT)] <- 0
```

## Uniendo la variable Ingresos Regulados (IR)

```{r}
IRS %>% group_by(Año,Mes,Aeropuerto) %>% summarise(IR = sum(`Importe por Servicios`)) -> IRegulados
DF <- merge(DF, IRegulados, by = c("Año","Mes","Aeropuerto"), all=TRUE)
```

```{r eval=FALSE}
DF$IR[is.na(DF$IR)] <- 0
```

## Uniendo la variable Numero de Pasajeros Internacionales (NPI)

```{r}
PI <- filter(TP, `Tipo de Pasajero` == "INTERNACIONAL")
PI <- filter(PI,Año %in% c(2020,2021,2022))
PI <- select(PI, -Periodo)
PI <- select(PI, -`Tipo de Pasajero`)
```

```{r}
DF <- merge(DF,PI, by = c("Año","Mes","Aeropuerto","Infraestructura"), all = TRUE)
DF <- rename(DF, "NPI" = "Nro Pasajeros")
```

```{r eval=TRUE}
DF$NPI[is.na(DF$NPI)] <- 0

#Reemplazo de N/A's por 0
```

## Uniendo la variable Numero de Pasajeros Nacionales (NPN)

```{r}
PN <- filter(TP, `Tipo de Pasajero` == "NACIONAL")
PN <- filter(PN,Año %in% c(2020,2021,2022))
PN <- select(PN, -Periodo)
PN <- select(PN, -`Tipo de Pasajero`)
```

```{r}
DF <- merge(DF,PN, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "NPN" = "Nro Pasajeros")
```

```{r eval=TRUE}
DF$NPN[is.na(DF$NPN)] <- 0

#Reemplazo de N/A's por 0
```

## Uniendo la variable Ingreso Rubro T U U A NACIONAL (TUUAN)

```{r}
TUUAN <- filter(ITS, `Rubro Ingreso` == "T U U A NACIONAL")
TUUAN <- filter(TUUAN,Año %in% c(2020,2021,2022))
TUUAN <- select(TUUAN, -'Tipo Ingreso')
TUUAN <- select(TUUAN, -'Rubro Ingreso')
TUUAN <- select(TUUAN, -'Periodo')
```

```{r}
#Creación de variable de verificación para reemplazo de N/A's
DF <- merge(DF, TUUAN, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "TUUAN_VER" = "Importe por Servicios")
```

```{r}
DF <- merge(DF, TUUAN, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "TUUAN" = "Importe por Servicios")
```

```{r eval=TRUE}
DF$TUUAN_VER[is.na(DF$TUUAN_VER)] <- 0
DF$TUUAN_VER[DF$TUUAN_VER != 0] <- "Si"
DF$TUUAN_VER[DF$TUUAN_VER == "0"] <- "No"
DF$TUUAN[is.na(DF$TUUAN)] <- 0
#Reemplazo de N/A's por 0
```

## Uniendo la variable Ingreso Rubro T U U A INTERNACIONAL (TUUAI)

```{r}
TUUAI <- filter(ITS, `Rubro Ingreso` == "T U U A INTERNACIONAL")
TUUAI <- filter(TUUAI,Año %in% c(2020,2021,2022))
TUUAI <- select(TUUAI, -'Tipo Ingreso')
TUUAI <- select(TUUAI, -'Rubro Ingreso')
TUUAI <- select(TUUAI, -'Periodo')
```

```{r}
DF <- merge(DF, TUUAI, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "TUUAI_VER" = "Importe por Servicios")#Creación de variable de verificación para reemplazo de N/A's
```

```{r}
DF <- merge(DF, TUUAI, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "TUUAI" = "Importe por Servicios")
```

```{r eval=TRUE}

DF$TUUAI_VER[is.na(DF$TUUAI_VER)] <- 0
DF$TUUAI_VER[DF$TUUAI_VER != 0] <- "Si"
DF$TUUAI_VER[DF$TUUAI_VER == "0"] <- "No"
DF$TUUAI[is.na(DF$TUUAI)] <- 0
#Reemplazo de N/A's por 0
```

## Uniendo la variable Ingreso Rubro ATERRIZAJE Y DESPEGUE (IRAD)

```{r}
IRAD <- filter(ITS, `Rubro Ingreso` == "ATERRIZAJE Y DESPEGUE")
IRAD <- filter(IRAD,Año %in% c(2020,2021,2022))
IRAD <- select(IRAD, -'Tipo Ingreso')
IRAD <- select(IRAD, -'Rubro Ingreso')
IRAD <- select(IRAD, -'Periodo')
```

```{r}

DF <- merge(DF, IRAD, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "IRAD_VER" = "Importe por Servicios")
#Creación de variable de verificación para reemplazo de N/A's
```

```{r}
DF <- merge(DF, IRAD, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "IRAD" = "Importe por Servicios")
```

```{r eval=TRUE}

DF$IRAD_VER[is.na(DF$IRAD_VER)] <- 0
DF$IRAD_VER[DF$IRAD_VER != 0] <- "Si"
DF$IRAD_VER[DF$IRAD_VER == "0"] <- "No"
DF$IRAD[is.na(DF$IRAD)] <- 0
#Reemplazo de N/A's por 0
```

## Uniendo la variable Ingreso Rubro ALQUILER AREAS DE MANTENIMIENTO (AADM)

```{r}
AADM <- filter(ITS, `Rubro Ingreso` == "ALQUILER AREAS DE MANTENIMIENTO")
AADM <- filter(AADM,Año %in% c(2020,2021,2022))
AADM <- select(AADM, -'Tipo Ingreso')
AADM <- select(AADM, -'Rubro Ingreso')
AADM <- select(AADM, -'Periodo')
```

```{r}

DF <- merge(DF, AADM, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "AADM_VER" = "Importe por Servicios")
#Creación de variable de verificación para reemplazo de N/A's
```

```{r}
DF <- merge(DF, AADM, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "AADM" = "Importe por Servicios")
```

```{r eval=TRUE}

DF$AADM_VER[is.na(DF$AADM_VER)] <- 0
DF$AADM_VER[DF$AADM_VER != 0] <- "Si"
DF$AADM_VER[DF$AADM_VER == "0"] <- "No"
DF$AADM[is.na(DF$AADM)] <- 0
#Reemplazo de N/A's por 0
```

## Uniendo la variable Ingreso ALQUILER DE ESPACIOS PUBLICITSARIOS (ADEP)

```{r}
ADEP <- filter(ITS, `Rubro Ingreso` == "ALQUILER DE ESPACIOS PUBLICITSARIOS")
ADEP <- filter(ADEP,Año %in% c(2020,2021,2022))
ADEP <- select(ADEP, -'Tipo Ingreso')
ADEP <- select(ADEP, -'Rubro Ingreso')
ADEP <- select(ADEP, -'Periodo')
```

```{r}

DF <- merge(DF, ADEP, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "ADEP_VER" = "Importe por Servicios")
#Creación de variable de verificación para reemplazo de N/A's
```

```{r}
DF <- merge(DF, ADEP, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "ADEP" = "Importe por Servicios")
```

```{r eval=TRUE}

DF$ADEP_VER[is.na(DF$ADEP_VER)] <- 0
DF$ADEP_VER[DF$ADEP_VER != 0] <- "Si"
DF$ADEP_VER[DF$ADEP_VER == "0"] <- "No"
DF$ADEP[is.na(DF$ADEP)] <- 0
#Reemplazo de N/A's por 0
```

## Uniendo la variable Ingreso ALQUILER LOCALES COMERCIALES (ALC)

```{r}
ALC <- filter(ITS, `Rubro Ingreso` == "ALQUILER LOCALES COMERCIALES")
ALC <- filter(ALC,Año %in% c(2020,2021,2022))
ALC <- select(ALC, -'Tipo Ingreso')
ALC <- select(ALC, -'Rubro Ingreso')
ALC <- select(ALC, -'Periodo')
```

```{r}

DF <- merge(DF, ALC, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "ALC_VER" = "Importe por Servicios")
#Creación de variable de verificación para reemplazo de N/A's 
```

```{r}
DF <- merge(DF, ALC, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "ALC" = "Importe por Servicios")
```

```{r eval=TRUE}

DF$ALC_VER[is.na(DF$ALC_VER)] <- 0
DF$ALC_VER[DF$ALC_VER != 0] <- "Si"
DF$ALC_VER[DF$ALC_VER == "0"] <- "No"
DF$ALC[is.na(DF$ALC)] <- 0
#Reemplazo de N/A's por 0
```

## Uniendo la variable Ingreso Rubro ALQUILER OFICINAS OPERACIONES AEROLÍNEAS (AOOA)

```{r}
AOOA <- filter(ITS, `Rubro Ingreso` == "ALQUILER OFICINAS OPERACIONES AEROLÍNEAS")
AOOA <- filter(AOOA,Año %in% c(2020,2021,2022))
AOOA <- select(AOOA, -'Tipo Ingreso')
AOOA <- select(AOOA, -'Rubro Ingreso')
AOOA <- select(AOOA, -'Periodo')
```

```{r}

DF <- merge(DF, AOOA, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "AOOA_VER" = "Importe por Servicios")
#Creación de variable de verificación para reemplazo de N/A's 
```

```{r}
DF <- merge(DF, AOOA, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "AOOA" = "Importe por Servicios")
```

```{r eval=TRUE}
DF$AOOA_VER[is.na(DF$AOOA_VER)] <- 0
DF$AOOA_VER[DF$AOOA_VER != 0] <- "Si"
DF$AOOA_VER[DF$AOOA_VER == "0"] <- "No"
DF$AOOA[is.na(DF$AOOA)] <- 0
```

## Uniendo la variable Ingreso Rubro ALQUILERES DE ALMACEN/HANGAR (ADAH)

```{r}
ADAH <- filter(ITS, `Rubro Ingreso` == "ALQUILERES DE ALMACEN/HANGAR")
ADAH <- filter(ADAH,Año %in% c(2020,2021,2022))
ADAH <- select(ADAH, -'Tipo Ingreso')
ADAH <- select(ADAH, -'Rubro Ingreso')
ADAH <- select(ADAH, -'Periodo')
```

```{r}

DF <- merge(DF, ADAH, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "ADAH_VER" = "Importe por Servicios")
#Creación de variable de verificación para reemplazo de N/A's 
```

```{r}
DF <- merge(DF, ADAH, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "ADAH" = "Importe por Servicios")
```

```{r eval=TRUE}
DF$ADAH_VER[is.na(DF$ADAH_VER)] <- 0
DF$ADAH_VER[DF$ADAH_VER != 0] <- "Si"
DF$ADAH_VER[DF$ADAH_VER == "0"] <- "No"
DF$ADAH[is.na(DF$ADAH)] <- 0
```

## Uniendo la variable Ingreso Rubro ATENCIÓN EN HORAS EXTRAS (AEHE)

```{r}
AEHE <- filter(ITS, `Rubro Ingreso` == "ATENCIÓN EN HORAS EXTRAS")
AEHE <- filter(AEHE,Año %in% c(2020,2021,2022))
AEHE <- select(AEHE, -'Tipo Ingreso')
AEHE <- select(AEHE, -'Rubro Ingreso')
AEHE <- select(AEHE, -'Periodo')
```

```{r}

DF <- merge(DF, AEHE, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "AEHE_VER" = "Importe por Servicios")
#Creación de variable de verificación para reemplazo de N/A's 
```

```{r}
DF <- merge(DF, AEHE, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "AEHE" = "Importe por Servicios")
```

```{r eval=TRUE}
DF$AEHE_VER[is.na(DF$AEHE_VER)] <- 0
DF$AEHE_VER[DF$AEHE_VER != 0] <- "Si"
DF$AEHE_VER[DF$AEHE_VER == "0"] <- "No"
DF$AEHE[is.na(DF$AEHE)] <- 0
```

## Uniendo la variable Ingreso Rubro ESTACIONAMIENTO AERONAVES (IREA)

```{r}
IREA <- filter(ITS, `Rubro Ingreso` == "ESTACIONAMIENTO AERONAVES")
IREA <- filter(IREA,Año %in% c(2020,2021,2022))
IREA <- select(IREA, -'Tipo Ingreso')
IREA <- select(IREA, -'Rubro Ingreso')
IREA <- select(IREA, -'Periodo')
```

```{r}

DF <- merge(DF, IREA, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "IREA_VER" = "Importe por Servicios")
#Creación de variable de verificación para reemplazo de N/A's 
```

```{r}
DF <- merge(DF, IREA, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "IREA" = "Importe por Servicios")
```

```{r eval=TRUE}
DF$IREA_VER[is.na(DF$IREA_VER)] <- 0
DF$IREA_VER[DF$IREA_VER != 0] <- "Si"
DF$IREA_VER[DF$IREA_VER == "0"] <- "No"
DF$IREA[is.na(DF$IREA)] <- 0
```

## Uniendo la variable Ingreso Rubro INGRESOS FINANCIEROS (IRIF)

```{r}
IRIF <- filter(ITS, `Rubro Ingreso` == "INGRESOS FINANCIEROS")
IRIF <- filter(IRIF,Año %in% c(2020,2021,2022))
IRIF <- select(IRIF, -'Tipo Ingreso')
IRIF <- select(IRIF, -'Rubro Ingreso')
IRIF <- select(IRIF, -'Periodo')
```

```{r}

DF <- merge(DF, IRIF, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "IRIF_VER" = "Importe por Servicios")
#Creación de variable de verificación para reemplazo de N/A's 
```

```{r}
DF <- merge(DF, IRIF, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "IRIF" = "Importe por Servicios")
```

```{r eval=TRUE}
DF$IRIF_VER[is.na(DF$IRIF_VER)] <- 0
DF$IRIF_VER[DF$IRIF_VER != 0] <- "Si"
DF$IRIF_VER[DF$IRIF_VER == "0"] <- "No"
DF$IRIF[is.na(DF$IRIF)] <- 0
```

## Uniendo la variable Ingreso Rubro REEMBOLSOS (IRR)

```{r}
IRR <- filter(ITS, `Rubro Ingreso` == "REEMBOLSOS")
IRR <- filter(IRR,Año %in% c(2020,2021,2022))
IRR <- select(IRR, -'Tipo Ingreso')
IRR <- select(IRR, -'Rubro Ingreso')
IRR <- select(IRR, -'Periodo')

IRR <- filter(IRR, `Importe por Servicios` != 0)
```

```{r}

DF <- merge(DF, IRR, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "IRR_VER" = "Importe por Servicios")
#Creación de variable de verificación para reemplazo de N/A's 
```

```{r}
DF <- merge(DF, IRR, by = c("Año","Mes","Aeropuerto","Infraestructura"), all=TRUE)
DF <- rename(DF, "IRR" = "Importe por Servicios")
```

```{r eval=TRUE}
DF$IRR_VER[is.na(DF$IRR_VER)] <- 0
DF$IRR_VER[DF$IRR_VER != 0] <- "Si"
DF$IRR_VER[DF$IRR_VER == "0"] <- "No"
DF$IRR[is.na(DF$IRR)] <- 0
```

## Agregando la variable Numero de Pasajeros Totales (NP)

```{r}
DF %>% mutate(NP = NPN + NPI) -> DF
#Numero de pasajeros totales
```

## Eliminación de datos y arreglos

```{r}
# Si es que no tenemos el nombre del aeropuerto o su infraestructura (Siempre debe venir acompañada del nombre), la unidad muestral no podrá entrar al análisis pues por ejemplo si nos dicen cuanto gano un aeropuerto desconocido, esto no nos dirá nada.


DF$Mes = factor(DF$Mes, levels =c("Enero","Febrero","Marzo","Abril","Mayo","Junio","Julio","Agosto","Setiembre","Octubre","Noviembre","Diciembre"))
DF <- arrange(DF, Año, Mes)

DF$Aeropuerto[DF$Aeropuerto == 'No precisa'] <- NA
DF$Aeropuerto[DF$Aeropuerto == '-'] <- NA
DF$Infraestructura[DF$Infraestructura == '-'] <- NA

DF <- filter(DF, Infraestructura != is.na("Infraestructura") & Aeropuerto != is.na("Aeropuerto"))

DF %>% mutate("Entidad_Infraestructura" =
                  ifelse(Infraestructura=="ADP", "Aeropuertos del Perú S.A.",
                  ifelse(Infraestructura=="AAP", "Aeropuertos Andinos del Perú S.A.",
                  ifelse(Infraestructura=="COR", "CORPAC S.A.",
                  ifelse(Infraestructura=="LAP", "Lima Airport Partners S.R.L.",Infraestructura))))) -> DF
```

```{r}
sum(complete.cases(DF))
```

```{r}

DF$Mes = factor(DF$Mes, levels =c("Enero","Febrero","Marzo","Abril","Mayo","Junio","Julio","Agosto","Setiembre","Octubre","Noviembre","Diciembre"))
DF <- arrange(DF, Año, Mes)
```

## Exportando la base de datos

```{r}
write_csv(DF,"BaseLimpiav2.csv")

```

# Importando la base datos limpia

```{r}

rm(list = ls())
library(readr)
library(plyr)
library(dplyr)
library(plotrix)
library(ggplot2)
library(stringi)
library(plotly)
library(MASS)

DF <- read_csv("BaseLimpiav2.csv")

```

# Variables

**Año:** Variable categórica que indica el año de la recolección de información.

**Mes:** Variable categórica que indica el mes de la recolección de información.

**Aeropuerto:** Variable cualitativa que indica el aeropuerto del cual se recolecta la información

**Infraestructura:** Variable cualitativa que indica en acrónimo a que entidad pertenece la infraestructura del aeropuerto del cual se recolecta la información.

**Entidad_Infraestructura:** Variable cualitativa que indica a que entidad pertenece la infraestructura del aeropuerto del cual se recolecta la información.

**IT:** Variable cuantitativa que representa los ingresos totales en dolares que ha registrado el aeropuerto

**IR:** Variable cuantitativa que representa los ingresos regulados en dolares que ha registrado el aeropuerto

**TUUAN**: Variable cuantitativa que representa el ingreso en dolares que ha generado la *TARIFA UNIFICADA POR USO DE AEROPUERTO de tipo nacional.*

**TUUAN**: Variable cuantitativa que representa el ingreso en dolares que ha generado la *TARIFA UNIFICADA POR USO DE AEROPUERTO de tipo internacional.*

**NPI:** Variable cuantitativa que representa el numero de pasajeros internacionales que ha registrado el aeropuerto

**NPN:** Variable cuantitativa que representa el numero de pasajeros nacionales que ha registrado el aeropuerto

**IRAD_VER:** Variable categórica que representa si el aeropuerto obtiene ingresos por aterrizaje y despegue.

**IRAD:** Variable cuantitativa que representa el ingreso en dolares del aeropuerto por aterrizaje y despegue.

**AADM_VER:** Variable categórica que representa si el aeropuerto obtiene ingresos por el alquiler de áreas de mantenimiento.

**AADM:** Variable cuantitativa que representa el ingreso en dolares por el alquiler de áreas de mantenimiento.

**ADEP_VER:** Variable categórica que representa si el aeropuerto obtiene ingresos por el alquiler de espacios de publicidad.

**ADEP:** Variable cuantitativa que representa el ingreso en dolares por el alquiler de espacios de publicidad.

**ALC_VER:** Variable categórica que representa si el aeropuerto obtiene ingresos por el alquiler de locales comerciales.

**ALC:** Variable cuantitativa que representa el ingreso en dolares por el alquiler de locales comerciales.

**AOOA_VER:** Variable categórica que representa si el aeropuerto obtiene ingresos por el alquiler de oficinas de operaciones de aerolíneas.

**AOOA:** Variable cuantitativa que representa el ingreso en dolares por el alquiler de oficinas de operaciones de aerolíneas.

**ADAH_VER:** Variable categórica que representa si el aeropuerto obtiene ingresos por el alquiler de almacenes/hangares.

**ADAH:** Variable cuantitativa que representa el ingreso en dolares por el alquiler de almacenes/hangares.

**AEHE_VER:** Variable categórica que representa si el aeropuerto obtiene ingresos por la atención en horas extras.

**AEHE:** Variable cuantitativa que representa el ingreso en dolares por la atención en horas extras.

**IREA_VER:** Variable categórica que representa si el aeropuerto obtiene ingresos por el estacionamiento de aeronaves.

**IREA:** Variable cuantitativa que representa el ingreso en dolares por el estacionamiento de aeronaves.

**IRIF_VER:** Variable categórica que representa si el aeropuerto obtiene ingresos por reembolso en ingresos financieros.

**IRIF:** Variable cuantitativa que representa el ingreso en dolares por reembolso en ingresos financieros.

**IRR_VER:** Variable categórica que representa si el aeropuerto obtiene ingresos por reembolsos.

**IRR:** Variable cuantitativa que representa el ingreso en dolares por reembolsos.

**NP:** Variable cuantitativa que representa el numero de pasajeros totales que ha registrado el aeropuerto.

# Descriptores Numéricos

```{r}
cv <- function(x){
    return(sd(x, na.rm=T)/mean(x, na.rm=T))
}
```

```{r}
tabla <- data.frame(Variables = c('IT', 'NPN', 'NPI', 'TUUAN','TUUAI'),
                    Media = c(mean(DF$IT, na.rm=T), 
                              mean(DF$NPN, na.rm = T), 
                              mean(DF$NPI, na.rm= T),
                              mean(DF$TUUAN, na.rm= T),
                              mean(DF$TUUAI, na.rm= T)),
                    
                    Mediana = c(median(DF$IT, na.rm=T), 
                                median(DF$NPN, na.rm = T), 
                                median(DF$NPI, na.rm= T),
                                median(DF$TUUAN, na.rm = T), 
                                median(DF$TUUAI, na.rm= T)), 
                    
                    Desviacion = c(sd(DF$IT, na.rm=T), 
                                   sd(DF$NPN, na.rm = T), 
                                   sd(DF$NPI, na.rm= T), 
                                   sd(DF$TUUAN, na.rm = T), 
                                   sd(DF$TUUAI, na.rm= T)), 
                    
                    Varianza = c(var(DF$IT, na.rm = T), 
                                 var(DF$NPN, na.rm = T), 
                                 var(DF$NPI, na.rm = T), 
                                 var(DF$TUUAN, na.rm = T), 
                                 var(DF$TUUAI, na.rm = T)),
                    
                    RangoIntercuartil = c(IQR(DF$IT, na.rm = T), 
                                        IQR(DF$NPN, na.rm = T), 
                                        IQR(DF$NPI, na.rm = T), 
                                        IQR(DF$TUUAN, na.rm = T), 
                                        IQR(DF$TUUAI, na.rm = T)),
                    
                    CoeficienteVariacion = c(cv(DF$IT), 
                                 cv(DF$NPN), 
                                 cv(DF$NPI),
                                 cv(DF$NPN), 
                                 cv(DF$NPI)))
tabla
```

De la tabla podemos conseguir la siguiente información:

-   La escala con la que se trabaja es bastante grande, de ahí el hecho que la varianza y desviación sean tan grande.

-   Tanto la varianza como la desviación nos indican que los datos de los Ingresos Totales, el Numero de Pasajeros Nacionales y el Numero de Pasajeros Internacionales están muy dispersos.

-   Se aprecia un fenómeno que la mediana y el rango intercuartil de la variable Pasajeros internacionales es 0. Esto quiere decir que hay muchos aeropuertos los cuales no suelen recibir pasajeros internacionales.

# Descriptores Gráficos

## Numero de Pasajeros vs Ingresos Totales

```{r}
plot(DF$NP/1000, DF$IT/1000000, xlab = "Numero de pasajeros (miles)", ylab = "Ingresos totales (millones de US$)", col="darkgreen", pch="•", xlim = c(0,2000))

```

Comenzamos comparando el numero de pasajeros en miles totales, suma de pasajeros internacionales y nacionales, con los ingresos totales de cada aeropuerto en determinado mes y año en millones de dolares. A simple vista se puede ver un cierto tipo de relación lineal, sin embargo tenemos que comprobarlo. Usaremos el coeficiente de correlación ya que este no toma en cuenta la escala de las unidades, perfecto para nuestro estudio.

```{r}
cor(DF$IT, DF$NP, use="complete.obs")
```

Con la información suministrada del coeficiente de correlación se deduce que la relación lineal entre el numero de pasajeros y los ingresos totales es buena, casi perfecta y ascendente. Es decir los ingresos totales aumentaran en cuanto aumente el numero de pasajeros.

Ahora crearemos un modelo de regresión lineal.

```{r}

modelo = lm(DF$IT ~ DF$NP, data=DF)
modelo

d <- data.frame("X"=DF$NP/1000, "Y"=DF$IT/1000000)
modelo = lm(d$Y ~ d$X, data=d)
modelo
```

Hemos creado dos modelos que en realidad son el mismo pero a diferentes escalas. El primero nos sirve para usar directamente el numero de pasajeros y los ingresos totales en dolares. El segundo para usar el numero de pasajeros en miles y conseguir los ingresos totales en millones de dolares. Ambos modelos nos permiten aproximar, predecir los ingresos totales de un aeropuerto en determinado mes y año usando la cantidad de pasajeros totales que llevo en el mismo lapso de tiempo.

```{r}
plot(DF$NP/1000, DF$IT/1000000, xlab = "Numero de pasajeros (miles)", ylab = "Ingresos totales (millones de US$)", col="darkgreen", pch="•", xlim = c(0,2000))
abline(a= -0.14890, b=0.01646, col="green")
```

## Numero de Pasajeros Nacionales e Internacionales vs Ingresos Totales

```{r}
par(mfrow=c(1,2))

plot(DF$NPN/1000, DF$IT/1000000, xlab = "Numero de pasajeros nacionales (miles)", ylab = "Ingresos totales (millones de US$)", col="red", pch="•")

plot(DF$NPI/1000, DF$IT/1000000, xlab = "Numero de pasajeros internacionales (miles)", ylab = "Ingresos totales (millones de US$)", col="blue", pch="•")
```

Ahora vamos a analizar la relación de los tipos de pasajeros con los ingresos totales. De nuevo usaremos el coeficiente de correlación tanto para los pasajeros nacionales como internacionales.

```{r}
cor(DF$IT, DF$NPN, use="complete.obs")
cor(DF$IT, DF$NPI, use="complete.obs")
```

De los coeficientes dados se encuentra que:

-   Ambos demuestran que tanto los pasajeros nacionales como internacionales poseen una buena y ascendente relación lineal con los ingresos totales.
-   Ambos son menores al **cor** de los pasajeros totales con los ingresos totales. Indica que si se usa solo a los pasajeros nacionales o solo a los internacionales para aproximar los ingresos totales, se tendrá una precisión menor a que si se usará la suma de ambos.
-   El **cor** de los pasajeros internacionales es ligeramente superior al de los pasajeros nacionales, mostrando que su relación lineal con los ingresos totales es ligeramente más acorde que la relación lineal de los pasajeros nacionales.

Ahora construyamos los modelos de regresión lineal para cada uno.

```{r}

modelo = lm(DF$IT ~ DF$NPN, data=DF)
modelo

d <- data.frame("X"=DF$NPN/1000, "Y"=DF$IT/1000000)
modelo = lm(d$Y ~ d$X, data=d)
modelo

modelo = lm(DF$IT ~ DF$NPI, data=DF)
modelo

d <- data.frame("X"=DF$NPI/1000, "Y"=DF$IT/1000000)
modelo = lm(d$Y ~ d$X, data=d)
modelo

rm(d)
```

Vemos que los modelos difieren en una cantidad considerable en cuanto a su pendiente, sin embargo, su intercepto es bastante similar, vamos a graficar estos modelos.

```{r}
par(mfrow=c(1,2))

plot(DF$NPN/1000, DF$IT/1000000, xlab = "Numero de pasajeros nacionales (miles)", ylab = "Ingresos totales (millones de US$)", col="red", pch="•")
abline(a= -0.36033, b=0.02451, col="#f72585")

plot(DF$NPI/1000, DF$IT/1000000, xlab = "Numero de pasajeros internacionales (miles)", ylab = "Ingresos totales (millones de US$)", col="blue", pch="•")
abline(a= 0.31996, b=0.04772, col="#0077b6")
```

## Analizando la distribución de Ingresos Totales

```{r}
plot_ly(x = ~DF$IT/1000000,
        type="histogram",
        color = ~DF$Infraestructura,
        nbinsx = 100
        )%>%
layout(yaxis = list( title = "Frecuencia" ),
    xaxis = list( title = "Ingresos totales (Millones de US$)",
                  nticks = 20))
```

Gracias al histograma se dice que los datos de los ingresos totales son totalmente asimétricos y se encuentran acumulados en un intervalo de 0 - 0.5 millones de dolares. Es decir la mayoría de aeropuertos determinados en cierto mes y cierto año posee unos ingresos totales de entre 0 y 0.5 millones de dolares. Esto puede ocurrir debido a datos atípicos, construyamos un Boxplot para que nos ayude.

```{r}
plot_ly(DF, x=~DF$IT/1000000,
            type = "box")%>%
layout(
    xaxis = list( title = "Ingresos totales (Millones de US$)"))
```

Usando un Boxplot simple se comprueba como los datos de los ingresos totales están demasidos dispersos gracias a cierta cantidad de datos atipicos. Ahora es necesario averiguar de donde provienen estos datos atípicos y que nos quieren decir. Para ello crearemos diferentes Boxplots basados en meses, infraestructuras y aeropuertos.

```{r}
plot_ly(DF, x = ~IT/1000000, 
        y = ~Mes, 
        color= ~Mes, 
        type="box") %>%
layout(yaxis = list( title = "Mes"),
    xaxis = list( title = "Ingresos totales (Millones de US$)"))
```

Con este gráfico podemos descartar que los datos atípicos provengan de un o varios meses en específico.

```{r}
plot_ly(DF, x = ~IT/1000000, 
        y = ~Infraestructura, 
        color= ~Entidad_Infraestructura, 
        type="box") %>%
layout(yaxis = list( title = "Infraestructura"),
    xaxis = list( title = "Ingresos totales (Millones de US$)"))
```

En este gráfico se observa como Lima Airport Partners S.R.L rebasa por mucho a las otras infraestructuras en cuanto a ingresos totales se refiere. Aquí podemos ya saber que esos datos atípicos de ingresos están generados en su gran mayoría por la infraestructura Lima Airport Partners S.R.L. Además es importante mencionar que la infraestructura COR no aparece en la gráfica pues no ha declarado ningún ingreso total.

```{r}
plot_ly(DF, x = ~IT/1000000, 
        y = ~Aeropuerto, 
        color= ~Aeropuerto, 
        type="box"
        ) %>%
layout(yaxis = list( title = "Aeropuertos"),
    xaxis = list( title = "Ingresos totales (Millones de US$)"))
```

Gracias a los 3 gráficos podemos concluir que:

-   El aeropuerto de Lima cuya entidad prestadora es la LAP, es la responsable de los datos atípicos y además es el que más ingresos totales genera.
-   La infraestructura LAP trabaja en Lima y se refiere al Aeropuerto Internacional Jorge Chávez. Esto nos quiere decir que en el Perú, el aeropuerto que genera más ingresos es el Jorge Chávez.

## Numero de Pasajeros vs Aeropuertos

```{r}
plot_ly(DF,y = ~NP/1000,
        x = ~as.factor(Aeropuerto), 
        type="bar",
        marker = list(color=c("lightblue"))
        )%>%
    layout(xaxis = list( title = "Aeropuertos"),
    yaxis = list( title = "Numero de pasajeros (miles)"))
```

Con esta gráfico se corrobora que el Aeropuerto de Lima (Aeropuerto Internacional Jorge Chávez) genera la mayor cantidad de ingresos y además recibe a la mayor cantidad de pasajeros respecto al resto del Perú. Otros aeropuertos notables son Cusco, Arequipa e Iquitos donde Cusco es el que más pasajeros recibe fuera de Lima. Se procede a dibujar el numero de pasajeros, los ingresos totales y los aeropuertos.

```{r}
plot_ly(DF,x = ~NP/1000,
        y = ~IT/1000000, 
        type="scatter",
        color = ~as.factor(Aeropuerto)
        )
```

El gráfico nos deja en claro la estrecha relación de la cantidad de pasajeros con la de ingresos que posee el aeropuerto de Lima y como este sobresale por mucho del resto de aeropuertos. Se concluye que los datos atípicos provenientes de ingresos totales eran y nos contaban sobre las peculiaridades del caso Lima.

## Ingresos T U U A Total vs Ingresos Totales

Se eligió la comparación de las T U U A, porque esta es la TARIFA UNIFICADA POR USO DE AEROPUERTO, es decir es una tarifa que como consumidores debemos de pagar. El objetivo aquí es analizar cuanto de los ingresos totales provienen directamente de los bolsillos de los pasajeros.

```{r}
plot((DF$TUUAN/1000000 + DF$TUUAI/1000000), DF$IT/1000000, xlab = "Ingresos TUUA (millones de US$)", ylab = "Ingresos totales (millones de US$)", col="#926c15", pch="•")

```

Comenzamos comparando el numero de pasajeros en miles totales, suma de pasajeros internacionales y nacionales, con los ingresos totales de cada aeropuerto en determinado mes y año en millones de dolares. A simple vista se puede ver un cierto tipo de relación lineal, sin embargo tenemos que comprobarlo. Usaremos el coeficiente de correlación ya que este no toma en cuenta la escala de las unidades, perfecto para nuestro estudio.

```{r}
cor(DF$IT, DF$TUUAI + DF$TUUAN, use="complete.obs")
```

Tenemos un coeficiente de correlación que esta muy próximo a 1, es decir esta relación es casi perfectamente lineal y con tendencia ascendente.

Ahora crearemos un modelo de regresión lineal.

```{r}
TUUA <- DF$TUUAI+DF$TUUAN
modelo = lm(DF$IT ~ TUUA, data=DF)
modelo

d <- data.frame("X"= (DF$TUUAI + DF$TUUAN)/100000, "Y"=DF$IT/1000000)
modelo = lm(d$Y ~ d$X, data=d)
modelo

rm(d)
```

Del modelo creado se obtiene el intercepto, es decir cuando la TUUA valdrá cero y la pendiente, en este caso es relativamente baja pero ascendente.

```{r}
plot(TUUA/100000, DF$IT/1000000, xlab = "Ingresos TUUA total (millones de US$)", ylab = "Ingresos totales (millones de US$)", col="#926c15", pch="•")
abline(a= 0.1557, b=0.2190, col="#c9a227")
```

## Ingresos TUUA Nacional y TUUA Internacional vs Ingresos Totales

```{r}
par(mfrow=c(1,2))

plot(DF$TUUAN/1000000, DF$IT/1000000, xlab = "Ingresos TUUA nacional (millones de US$)", ylab = "Ingresos totales (millones de US$)", col="#f8961e", pch="•")

plot(DF$TUUAI/1000000, DF$IT/1000000, xlab = "Ingresos TUUA internacional (millones de US$)", ylab = "Ingresos totales (millones de US$)", col="#90be6d", pch="•")
```

Probemos de nuevo a usar el coeficiente de correlación para ambas variables

```{r}
cor(DF$IT, DF$TUUAN, use="complete.obs")
cor(DF$IT, DF$TUUAI, use="complete.obs")
```

De los coeficientes dados se encuentra que:

-   Los dos coeficientes muestran una casi perfecta linealidad ascendente.
-   Ninguno de los dos **cor** por separado pudo superar al anterior visto producto de la suma de las TUUA.
-   El **cor** nacional es ligeramente superior al **cor** internacional.

Ahora construyamos los modelos de regresión lineal para cada uno.

```{r}

modelo = lm(DF$IT ~ DF$TUUAN, data=DF)
modelo

d <- data.frame("X"=DF$TUUAN/1000000, "Y"=DF$IT/1000000)
modelo = lm(d$Y ~ d$X, data=d)
modelo

modelo = lm(DF$IT ~ DF$TUUAI, data=DF)
modelo

d <- data.frame("X"=DF$TUUAI/1000000, "Y"=DF$IT/1000000)
modelo = lm(d$Y ~ d$X, data=d)
modelo

rm(d)
```

Los modelos poseen bastantes diferencias entre sí como sus interceptos que a simple no tienen nada en común al igual que sus pendientes. Veamoslo en una grafica.

```{r}
par(mfrow=c(1,2))

plot(DF$TUUAN/1000000, DF$IT/1000000, xlab = "Ingresos TUUA nacional (millones de US$)", ylab = "Ingresos totales (millones de US$)", col="#f8961e", pch="•")
abline(a= -0.0599, b=5.2126, col="#f3722c")

plot(DF$TUUAI/1000000, DF$IT/1000000, xlab = "Ingresos TUUA internacional (millones de US$)", ylab = "Ingresos totales (millones de US$)", col="#90be6d", pch="•")
abline(a= 0.3295, b=3.6882, col="#43aa8b")

```

Detallamos entonces que los ingresos totales guardan una alta relación con los ingresos generados por las TUUA y dependen en gran medida de estas, ergo la cantidad de pasajeros.

## Pandemia vs PostPandemia

```{r}
DF2020 <- filter(DF, DF$Año=="2020")
DF2021 <- filter(DF, DF$Año=="2021")
DF2022 <- filter(DF, DF$Año=="2022")

DF2020 %>% group_by(Mes,Año) %>% summarise(IT = sum(IT, na.rm=TRUE), NP = sum(NP, na.rm = TRUE)) -> DF2020

DF2021 %>% group_by(Mes,Año) %>% summarise(IT = sum(IT, na.rm=TRUE), NP = sum(NP, na.rm = TRUE)) -> DF2021
                                           
DF2022 %>% group_by(Mes,Año) %>% summarise(IT = sum(IT, na.rm=TRUE), NP = sum(NP, na.rm = TRUE)) -> DF2022

```

```{r}
plot_ly(y = ~DF2020$IT/1000000,
        x = ~DF2020$Mes, 
        type="bar",
        name="2020",
        marker = list(color = '#57cc99')
        )%>% 

    
    add_trace(y = ~DF2021$IT/1000000,
        x = ~DF2021$Mes, 
        type="bar",
        name="2021",
        marker = list(color = '#38a3a5')
        )%>%
    
    
    add_trace(y = ~DF2022$IT/1000000,
        x = ~DF2022$Mes, 
        type="bar",
        name="2022",
        marker = list(color = '#22577a')
        )%>%
    
    
    layout(xaxis = list( title = "Meses"),
    yaxis = list( title = "Ingresos totales (Millones de US$)",
    nticks = 10,
    range = list(0,45)),
    
    barmode="group")
```

Del gráfico de barras podemos observar:

-   La distribución de los ingresos totales en base a los meses del año.

-   Existe una asimetria notable entre los datos en el año 2020. Esta asimetria se explica por el surgimiento del Covid-19. Los ingresos bajaron bastante en proporción a la media.

-   Un patrón de crecimiento sobre los ingresos totales dependiendo de los meses. En algunos meses los ingresos totales son esperado a ser mayores que en otros meses, uno de los factores que pueden influir en esto son las vacaciones pues están estrechamente relacionas con el número de pasajeros a abordarr en un aeropuerto.

```{r}

plot_ly() %>%
    add_trace(y = ~DF2020$IT/1000000,
        x = ~DF2020$Mes, 
        type="scatter",
        mode="lines+markers",
        name="2020",
        marker = list(color = '#57cc99'),
        line = list(color = '#57cc99'),
        fill = "tonexty",
        fillcolor = 'rgba(197,237,211,0.3)'
        )%>%
    add_trace(DF2021, y = ~DF2021$IT/1000000,
        x = ~DF2021$Mes, 
        type="scatter",
        mode="lines+markers",
        name="2021",
        marker = list(color = '#38a3a5'),
        line = list(color = '#38a3a5'),
        fill = "tonexty",
        fillcolor = 'rgba(106,166,169,0.3)'
        )%>%
    add_trace(y = ~DF2022$IT/1000000,
        x = ~DF2022$Mes, 
        type="scatter",
        mode="lines+markers",
        name="2022",
        marker = list(color = '#22577a'),
        line = list(color = '#22577a'),
        fill = "tonexty",
        fillcolor = 'rgba(68,102,122,0.3)'
        )%>%
    
    layout(xaxis = list( title = "Meses"),
           title = "Evolutivo Ingresos",
    yaxis = list( title = "Ingresos totales (Millones de US$)", 
                  range = list(0,45))
    )

```

```{r}
plot_ly() %>%
    add_trace(y = ~DF2020$NP/1000,
        x = ~DF2020$Mes, 
        type="scatter",
        mode="lines+markers",
        name="2020",
        marker = list(color = '#E09F3E'),
        line = list(color = '#E09F3E'),
        fill = "tonexty",
        fillcolor = 'rgba(225,183,123,0.3)'
        )%>%
    add_trace(DF2021, y = ~DF2021$NP/1000,
        x = ~DF2021$Mes, 
        type="scatter",
        mode="lines+markers",
        name="2021",
        marker = list(color = '#9E2A2B'),
        line = list(color = '#9E2A2B'),
        fill = "tonexty",
        fillcolor = 'rgba(158,72,74,0.3)'
        )%>%
    add_trace(y = ~DF2022$NP/1000,
        x = ~DF2022$Mes, 
        type="scatter",
        mode="lines+markers",
        name="2022",
        marker = list(color = '#540B0E'),
        line = list(color = '#540B0E'),
        fill = "tonexty",
        fillcolor = 'rgba(87,45,47,0.3)'
        )%>%
    
    layout(xaxis = list( title = "Meses"),
           title = "Evolutivo Pasajeros",
    yaxis = list( title = "Numero de Pasajeros (Miles)"))
```

De los gráficos evolutivos podemos apreciar:

-   Como es el comportamiento de los ingresos totales frente a los meses y a los años marcados por la pandemia.

-   En el mes de Febrero del año 2020 comienza una caída drástica en los ingresos hasta Abril del mismo año donde comienza a estabilizarse. Este periodo coincide con la aparición del Covid-19 en Perú y el establecimiento de las medidas de confinamiento. El confinamiento indica que el número de pasajeros se reduce en gran proporción. Esta causa también se puede observar en el evolutivo de pasajeros y el como su número de cae hasta 0 o casi 0. Los aeropuerto tuvieron consecuencias que tardaron mucho en disiparse Muestra de ello es como se tardó 2 años y 5 meses para volver a un punto similar al de Febrero 2020 en ingresos totales.

    ```{r}

    round(100 - ((filter(DF2020, Mes == "Abril")$IT/1000000 )/( filter(DF2020, Mes == "Febrero")$IT/1000000) * 100) ,2)

    round( - filter(DF2020, Mes == "Abril")$IT/1000000  + filter(DF2020,Mes == "Febrero")$IT/1000000, 2)
    ```

-   La pérdida del mes de Abril del 2020 respecto al mes de Febrero del 2020 fue del 86.68% suponiendo una diferencia de 31.76 millones de dolares.

-   A partir del mes de Abril se estabilizan los ingresos del año 2020. Estos son bajos pero se observa una tendencia ascendente. Tendencia que continua en los años 2021 y 2022 a medida que el confinamiento se levanta, la pandemia se controla y el numero de pasajeros aumenta.

## Conclusión

A razón de resumen, en nuestro análisis sobre la relación entre el número de pasajeros y los ingresos totales de los aeropuertos graficamos la distribución de los ingresos totales, las diferentes relaciones entre variables tales como la última vista (Ingresos TUUA vs Ingresos Totales), (cantidad de pasajeros y aeropuertos). Asimismo observamos y describimos el comportamiento evolutivo de los ingresos totales respecto a los años vividos en pandemia y post-pandemia. Finalemnte, con la información recolectada y el estudio realizado se encontró que los ingresos totales generados por los aeropuertos en el Perú dependente altamente en los consumidores o pasajeros, siendo la TUUA el ejemplo más claro de ello.
